肖仰华:知识图谱构建的三要素、三原则和九大策略
演讲嘉宾 | 肖仰华(复旦大学教授、博士生导师,知识工场实验室负责人)
出品丨AI科技大本营
近两年,知识图谱技术得到了各行各业的关注,无论是企业公司还是开发者个人,都对这项技术有着极大的了解与使用需求。
在今年的AI开发者大会上,复旦大学教授、博士生导师,知识工场实验室负责人,《知识图谱:概念与技术》作者之一肖仰华教授从知识图谱目前所面临的机遇与挑战出发,分析了大规模知识图谱自动化构建的三个要素、三大原则和五个环节,并重点讲解了知识图谱落地的九大构建策略,这将帮助开发者聚焦知识图谱的主流方向,助力企业构建自己的知识图谱。
相关图书:《知识图谱:概念与技术》(即将上市)。
下文将带来肖仰华教授演讲现场的内容实录。
首先非常开心能有机会再次在 CSDN 和大家分享我们在知识图谱的构建和应用方面的工作和一些思考。今天给大家带来的题目是《知识图谱构建与应用 In Practice》。
凡是做知识图谱工作的都有一个体会:最近知识图谱的研究特别火热,大家可以看到大量知识图谱的论文和成果,但真正把这些来自大公司或者名校的论文或技术成果拿到自己的应用场景中时,就会切实感受到各种各样的问题,“技术还是别人家的技术”,尤其在知识图谱领域中更是如此。
但学术界的成果真的没有可取之处吗?其实不然。还是有一些非常实用的方法、经验可以借鉴的。所以,今天我就想跟大家分享在知识图谱的构建和应用这个问题中,真正能够有效解决问题的一些思路、策略和方法,也就是我题目中“In Practice”的核心。
知识图谱是什么?知识图谱为什么重要?今天因为时间有限,这个问题就不细展开了。我认为知识图谱是一个大规模的应用,实际上是知识工程在大数据时代再次复现的产物,这就是我对知识图谱的定位。知识图谱能解决什么问题?很多,比如,知识图谱可以让机器实现语言认知、人工智能、与数据驱动一道成为另外一种解决问题的范式,比如应用在搜索、决策、问答、支持等等,具体内容可以在这本新书中《知识图谱:概念与技术》看到。
一、知识图谱作为大数据知识工程的典型代表,以自动化知识获取为其根本特征
今天想传达的第一个观点是,知识图谱实际是一个大数据知识工程的典型产物,是以自动化知识获取为其根本特征。知识图谱既不是NLP也不是语义网,作为这一产物有其独特的价值,即自动化知识获取。为什么这么说?我们可以想一下传统方法是怎么做知识工程的?是依靠专家,专家描述这个事件,把本体定义出来,专家来书写知识,这是一种完全手工的做法。如果说今天做知识图谱的你还在走传统知识工程的老路的话,那你做的就不是我们这个大数据时代的知识图谱,你所做的图谱本质也就不是一个知识图谱,它仍是一个传统的小规模的网络。知识图谱之所以是知识图谱,其根本的特征就是以自动化知识获取为它的根本特征。
知识图谱脱胎于符号主义。符号主义的概念中“智能”的本质就是符号的操作和运算,这是图灵奖以及诺贝尔获得者Newell和Simon的观点,这个观念又被叫做知识+推理。传统的知识工程应用很多都是有限制的,大部分都在规则明确、边界清晰、应用封闭的场景中取得了巨大成功,如石油、医疗、化工等领域。这些领域看起来是垂直封闭的,但实际上绝大部分都不是真正封闭的,在金融领域,与很多因素都有关系,比如跟天气有关,台风一来农作物产量自然下降,相应的公司股票就要下跌,这些都决定了很多领域都不是绝对封闭的。
传统知识工程为什么有这样苛刻的条件呢?因为它是极依赖人的一种做法,称之为典型的自上而下的做法,后来看到很多人也在呼应这种说法。何为自上而下?就是依赖专家,首先依赖专家制作知识表,还需要知识工程师把专家的知识变成计算机处理的知识,还需要人的反馈。这样很重度的人工参与,会导致知识的获取和知识的应用都非常困难。
我个人有一个观点:工业智能化能否成功决定了认知智能是否成功。所以,传统知识工程到了互联网时代就不再适应整个互联网应用的需要,互联网应用的特点,以谷歌搜索这样的互联网应用为例,它的基本特点是大规模开放性,我们永远不知道用户下一个搜索的关键字是什么,目前很多应用推理其实非常简单,互联网搜索大部分使用的还是简单的推理。
而我们认为知识图谱之所以出现,实际上是因为这个时代的需要。互联网时代需要新的知识图谱,另外大数据时代的到来也给大规模自动化的知识获取提供了机遇。基于传统知识图谱,我们现在拥有什么?有新的算力,有前所未有的海量数据,有花样繁多的深度学习模型,所以算法、算力和数据都是现在有而过去所没有的。
这个新的机遇使大规模自动化的自动获取成为可能。一方面,现在发展了大量自下而上的自动化知识获取,自下而上的过程就是从数据中自动挖掘得到知识图谱。比如最早从互联网网页,后来从电商购物记录、搜索日志、网页中获取大数据,我们能不能从这些数据中获取简单知识图谱?其实整个知识图谱就代表着这种趋势,用一些模型算法从数据中自动挖掘一些简单的知识表示。
此外,还有众包平台,各种各样的众包平台帮助我们获得知识;高质量的UGC,在互联网上使用问答、社区、维基等用户数据,使得我们构建高质量知识库成为可能。因此,大数据时代的到来势必需要与这个时代相适应的新的知识表示,这就是知识图谱为什么出现的根本原因。而知识图谱的出现,一方面是因为时代的需要,另一方面也是因为这个时代创造了它必要的存在条件,这个时代给它提供了海量数据、算力和算法。
可以说知识图谱的出现说明了一点,就是大规模自动化知识获取已经成为可能,我们延着知识图谱这个趋势有望突破传统知识库的规模和质量上的瓶颈,正因为传统知识库在规模和质量上的瓶颈有望被突破,所以,我们认为知识图谱的到来很有可能是整个认知智能时代到来的一个序曲。我们很有可能将要迎接的是一个大知识的时代,好比我们曾经从小数据进入到大数据时代,我们很有可能正在经历从过去传统的小规模知识表示向以知识图谱为代表的,各种各样大规模知识图谱为代表的大知识时代的到来。
以上想给大家传达知识图谱很重要,同时知识图谱之所以成为知识图谱,必须是依赖自动化获取,还靠人工构建显然不行的。
现在很多的互联网知识图谱动辄数千万、数百亿的实体,依靠人工如何构建?根本不可能。现在大家都知道知识图谱很好,知识图谱有望解决人工智能很多问题,是人工智能实现的一个非常重要的保障。那么问题来了,我们到底怎样做到知识图谱的自动化获取?其实这是所有人都想做到的。谁不想获得数据得到图谱,基于图谱形成认知能力,赋能各种应用场景,这是梦寐以求的事,但难在怎么实现自动化的知识获取?
实现自动化的知识获取,接下来分享一些我们的经验。
二、大规模知识图谱的自动化、高质量构建:关键要素、基本原则、关键技术
▌1、知识图谱构建的三个核心要素
首先,知识图谱构建有三个非常核心的要素:规模、质量、成本。
其次,知识图谱的整个构建生命周期涉及五个非常重要的环节。第一个环节是抽取,如果你有结构化的数据就可以做自动抽取,但很多时候没有结构化的数据,比如我们有大量存在的非结构化的文本数据,怎么做结构化数据的抽取?获取之后,第二环节是纠错、第三环节是补全,第四是更新,第五是精化,最后知识的对与错还需要交给人来验证。
当前各种各样的应用场景中,整个图谱构建到底面临的基本形势是什么?我认为要从两方面谈起:挑战和机遇。
现在整个图谱构建面临的挑战是什么?一是需求多样,因为数据来源的多样性,有的要做抽取,有的要处理半结构化数据,有的可能是结构化数据做转换就可以了,所以知识图谱构建的需求是多样的;第二是规模往往要求很大;第三,知识图谱构建之后所支撑的业务很庞大;第四,构建知识图谱的数据本身很稀疏,尤其是高质量数据;第五,知识分布不均匀,有一些知识样本很多,有一些知识很少;第六,质量低下,有很多“脏”数据或错误数据;第七,资源有限,没有哪家公司的资源是无限的,即便像华为这样规模的企业,越大的公司资源越有限,它的任务也就越多。
我们的机会在哪儿?是不是一点机会没有?不是,我们也有机会把知识图谱自动化构建做好,特别是在垂直领域,尤其是传统行业。首先,工业场景中专家知识是很丰富的;第二,很多行业虽然没有标准数据、结构化数据,但文本数据还是很多的,尤其是在医疗、金融、工业等领域的应用场景中;第三,有些场景,特别是头部企业中,用户行为数据很多,像电商、搜索,用户有着非常丰富的搜索行为数据、购物记录数据;第四,现在有很多深度学习模型,这也是一个机会;第五,现在已经存在一些高质量图谱、行业词典,并不是从零开始;第六,各种方法并存,我们现在不缺方法,现在各种技术图书中都是在讲方法,问题在于方法这么多,关键是怎么做选择,怎么做合并,怎么做组合,我们能不能把这些方法组合到一起变成一道“大餐”,是一件非常重要的事。
▌2、知识图谱的构建方式
正因为面临这些挑战和机遇,我们需要怎样的知识图谱构建方式?
首先是普适,尽量采用普适的方式,如图模型,建模能力强,可解释;二是轻量,大部分都是做一些小模型;第三,还要廉价,如果在自己的业务中评估需要几千万来做数据标注,这也是不现实的;还有,能不能采用无监督,端到端的方式;现在有这么多的数据,不单单是抽取文本数据,如何用行为数据驱动,也是非常重要的。我们有这么多思路,还需要演化出具体的策略,接下来就和大家分享一下我们的具体策略。
▌3、构建知识图谱的九大策略
第一,端到端 VS Pipeline?
现在设计了很多方法。一种方法是走流水线的方法,但每一步都有可能出错,最后不可收拾,这就是Pipeline的做法,它会带来错误的传播和累计。而我们需要端到端的,这就是深度学习的好处,深度学习不是一点好处没有,好处在于它是端到端的框架。如果在达到同样效果的前提下,显然端到端的方法完胜Pipeline。
第二,无监督 VS 有监督?
第三个,数据驱动 VS 文本抽取?
第三个,数据驱动 VS 文本抽取?
第四,统计模型+符号知识 VS 单一的统计模型?
第五,间接知识引导 VS 直接数据驱动?
第六,图模型 VS 其他模型
第七,利用专家构建的知识自动标注样本 VS 手动标注样本
第八,复合架构 VS 单一模型的选择
第九,有众包 VS 无众包
三、自动化知识图谱构建技术与落地是可行的
大家都在看